97 research outputs found
Training Methods for Deep Neural Network-Based Acoustic Models in Speech Recognition
Nowadays, speech recognition technology is built on Deep Neural Networks. These networks represents the latest direction of machine learning. They are based on the theory of artificial neural networks, which have been used for decades. However, unlike traditional Neural Networks, all deep networks contain many processing layers, which allow the hierarchical processing of the input data. While the concept of deep networks is not totally new, their efficient training required several new achievements. These new networks managed to completely replace the Gaussian Mixture Models in the state-of-the-art speech recognition systems.
In this study, we decided to focus on Deep Neural Network-based recognition systems.
First, we compared the performance of several new training algorithms with each other, in order to determine the best one for later use.
Then, we turned my attention to the algorithms that the new speech recognition systems have inherited from the previous Gaussian Mixture Model-based approaches, as the algorithms might not be optimal for Deep Neural Networks.
we proposed new algorithms for obtaining the initial alignment of the frame-level state labels and the creation of context-dependent states, and found that they are better suited for the new acoustic models.
Lastly, we also experimented with a data re-sampling method to improve the accuracy of the models
Kezdeti lépések egy európai forenzikus tudományos térség létrehozása felé
A büntetőjogi harmonizációt szolgáló egyes uniós dokumentumok ismeretében
olyan organikus fejlődés figyelhető meg, amelynek során (f)okról (f)okra haladva
erősödnek az igazságügyi együttműködés, és az ennek alapjául szolgáló egységesülő
elvek és módszerek. Az egyre növekvő szervezettség okaként egyrészt tömeges
társadalmi jelenségek szolgálnak, mint a bűnözés határtalansága, az illegális
bevándorlás fokozódása; de jogalkotói lépéseket válthat ki egy-egy konkrét esemény,
tragédia, avagy tévedés is
Nagyszótáras beszédfelismerés morfémaalapú rekurrens nyelvi modell használatával
A klasszikus beszédfelismerő rendszerek számára hatalmas kihívást jelentenek az agglutináló nyelvek, hiszen pontos eredmények eléréséhez hatalmas szótárakra van szükség a ragozás és a szóösszetétel miatt. A probléma főleg a nyelvi modell részét érinti a felismerőnek, tekintve, hogy túl nagy szótárméret esetén a tanulási fázis rendkívül nehéz, ez pedig szuboptimális modellhez vezethet. Ezen problémára megoldást jelenthet, ha szavak helyett azoknál kisebb egységet, morfémákat használunk a nyelvi modellezés során. A cikkben bemutatásra kerül egy morfémaalapú, rekurrens neuronhálós nyelvi modellt alkalmazó beszédfelismerő, amely használatával szignifikánsan jobb eredményeket tudtunk elérni egy magyar nyelvű beszédkorpuszon mint a hagyományos szószintű megközelítéssel
Szakértői bizonyítás a polgári peres eljárásban
Without abstractAbsztrakt nélkü
Szakértői bizonyítás a polgári peres eljárásban
Without abstractAbsztrakt nélkü
A bírói mérlegelés mikéntje ellentétes szakvélemények esetén
A szakértői bizonyítás fokozódó jelentőségét a természet- és egyéb tudományos
ismeretek, módszerek bővülése és fejlődése, valamint az emberi/társadalmi viszonyok
növekvő komplexitása alapozzák meg. Az érvényesnek elismert metódusok
önmagukban is bizalmat ébresztenek a jogalkalmazóban, amelyet a jogalkotó különböző
jogforrásokon keresztül, garanciális elemek bevezetésével tovább erősíthet. Az így
generált bizalomnak számos következménye volt az elmúlt évszázadban, pl. az
ugyanazon szakkérdésre egyidejűleg kirendelt szakértők számának csökkenése, az
állandó szakértők általánossá válása, a bírói jelenlét nélkül folytatott sui generis
vizsgálat, mint eljárási cselekmény gyakorlata. Azonban a szakértői bizonyítás
professzionalizálódása ellenére biztosítani kell a szakvélemény konkurens
ellenőrzésének elvi lehetőségét, éppen a megbízhatóság fenntartása végett. Az ellentétes
szakvélemények ugyanakkor kétséget ébreszthetnek nem csupán az egyik, hanem akár
mindkét szakvéleménnyel kapcsolatban, amelyek eloszlatását a jogalkalmazó – végső
soron a bíró – első körben a már kirendelt szakértők útján kell, hogy elérje. Kérdés,
miként, milyen szempontok alapján kísérelheti ezt meg? Milyen esetekben és okokból
marad eredménytelen a szakértők párhuzamos meghallgatása, és ennek milyen
következményei vannak? A gyakorlatra is kitekintő értekezésemben a szakértői
bizonyítás érvényesülésének esszenciális kérdésével, az ellentétes szakvélemények bírói
(felül)mérlegelésének lehetőségével és terjedelmével foglalkozom
Topic Identification For Spontaneous Speech: Enriching Audio Features With Embedded Linguistic Information
Traditional topic identification solutions from audio rely on an automatic
speech recognition system (ASR) to produce transcripts used as input to a
text-based model. These approaches work well in high-resource scenarios, where
there are sufficient data to train both components of the pipeline. However, in
low-resource situations, the ASR system, even if available, produces
low-quality transcripts, leading to a bad text-based classifier. Moreover,
spontaneous speech containing hesitations can further degrade the performance
of the ASR model. In this paper, we investigate alternatives to the standard
text-only solutions by comparing audio-only and hybrid techniques of jointly
utilising text and audio features. The models evaluated on spontaneous Finnish
speech demonstrate that purely audio-based solutions are a viable option when
ASR components are not available, while the hybrid multi-modal solutions
achieve the best results.Comment: Accepted to EUSIPCO 202
Mély neuronhálós beszédfelismerők működésének értelmező elemzése
Manapság nyilvánvalóvá vált, hogy beszédfelismerésben a mély neuronhálós modellek teljesítenek a legjobban, azonban fontos kérdés, hogy miért működnek ilyen jól. Az utóbbi pár évben megnövekedett a igény, hogy a mély hálókat ne csupán fekete dobozként kezeljük, hanem azok belső működését próbáljuk megérteni, interpretálni is. Az interpretálásra több eszköz is létezik, jelen cikkben mi két beágyazási technikát alkalmazunk annak vizsgálatára, hogy egy neuronhálós beszédfelismerőn belül pontosan mi történik használat közben. A vizsgált háló egy magyar nyelvű beszédfelismerő része, amelyet egy híradós adatbázison tanítottunk. A háló struktúráját tekintve nem rendelkezik könnyen értelmezhető, keskeny üvegnyak (bottleneck) réteggel, ezért a neuronháló nagy méretű rejtett rétegeinek kimeneteit tanulmányoztuk. Első vizsgálataink során arra a kérdésre kerestük a választ, hogy mennyire jól különíti el az adott réteg a magán- és mássalhangzókat, valamint a csendes részeket. A következő lépésben azt tanulmányoztuk, hogy a magán- és mássalhangzókon belül más csoportok reprezentációja is azonosítható-e. Eredményeink alapján megállapítható, hogy a mély háló számos olyan tulajdonságot is megtanult a beszédhangokról, amelyek felismerésére explicit módon nem tanítottuk a hálót
- …